客户服务Chatbots是对话系统,旨在为客户提供有关不同公司提供的产品/服务的信息。特别地,意图识别是自然语言低估Chatbot系统的能力的核心组件之一。在聊天训练识别的不同意图中,他们有一组是通用的任何客户服务Chatbot。普遍意图可以包括称呼,将对话交给人类代理人,告别。识别这些普遍意图的系统将非常有助于优化特定客户服务聊天训练过程。我们提出了一个普遍意图识别系统的发展,该系统受过培训,以识别28个不同的聊天跳闸中常见的11个意图组。拟议的系统考虑了最先进的单词嵌入模型,例如Word2VEC和BERT,基于卷积和经常性神经网络的深层分类器。所提出的模型能够区分这些普遍意图,均衡精度高达80.4 \%。此外,所提出的系统同样准确地识别短期和长文本请求中表达的意图。同时,错误分类错误通常发生在具有非常相似的语义领域,例如告别和正面评论之间。建议的系统将非常有帮助优化客户服务Chatbot的培训过程,因为我们的系统已经可用并检测到一些意图。与此同时,拟议的方法将是一个合适的基础模型,通过应用转移学习策略培训更具体的聊天措施。
translated by 谷歌翻译
Graphic layout designs play an essential role in visual communication. Yet handcrafting layout designs are skill-demanding, time-consuming, and non-scalable to batch production. Although generative models emerge to make design automation no longer utopian, it remains non-trivial to customize designs that comply with designers' multimodal desires, i.e., constrained by background images and driven by foreground contents. In this study, we propose \textit{LayoutDETR} that inherits the high quality and realism from generative modeling, in the meanwhile reformulating content-aware requirements as a detection problem: we learn to detect in a background image the reasonable locations, scales, and spatial relations for multimodal elements in a layout. Experiments validate that our solution yields new state-of-the-art performance for layout generation on public benchmarks and on our newly-curated ads banner dataset. For practical usage, we build our solution into a graphical system that facilitates user studies. We demonstrate that our designs attract more subjective preference than baselines by significant margins. Our code, models, dataset, graphical system, and demos are available at https://github.com/salesforce/LayoutDETR.
translated by 谷歌翻译
The understanding capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of image, text, and 3D point cloud by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models will be released.
translated by 谷歌翻译
This letter focuses on the task of Multi-Target Multi-Camera vehicle tracking. We propose to associate single-camera trajectories into multi-camera global trajectories by training a Graph Convolutional Network. Our approach simultaneously processes all cameras providing a global solution, and it is also robust to large cameras unsynchronizations. Furthermore, we design a new loss function to deal with class imbalance. Our proposal outperforms the related work showing better generalization and without requiring ad-hoc manual annotations or thresholds, unlike compared approaches.
translated by 谷歌翻译
联合学习是一种在网络边缘训练机器学习模型的方法以及数据隐私问题。这种学习范式需要对设备异质性和数据异质性的鲁棒算法。本文提出MODFL作为联合学习框架,将模型分为配置模块和操作模块,从而实现了各个模块的联合学习。这种模块化方法使从一组异质设备以及用户产生的非IID数据中提取知识。该方法可以看作是通过个性化层FEDPER框架来解决数据异质性的范围的联合学习的扩展。我们表明,使用CNN的MODFL优于CIFAR-10和STL-10的非IID数据分区的FEDPER。我们在使用RNN的Hapt,RWHAR和WISDM数据集的时间序列数据上的结果尚无定论,我们认为所选数据集并未突出MODFL的优势,但在最坏的情况下,它和FedPer一样。
translated by 谷歌翻译
近年来,人们对多任务学习的兴趣越来越多。在这项工作中,我们通过合并模型应在模型不应该执行的两项辅助任务的两种辅助任务和对抗性任务中,提出了多任务学习的广义概念。我们采用必要的条件分析(NCA)作为数据驱动的方法来确定这些任务应该属于哪个类别。我们的新颖拟议框架,对抗性多任务神经网络(AMT),对NCA确定的对抗性任务进行惩罚,由NCA确定为场景识别在整体视频理解(HVU)数据集中,以改善动作识别。这更颠覆了一个普遍的假设,即应始终鼓励模型在多任务学习中完成所有任务。同时,AMT仍然保留多任务学习作为现有方法的概括的所有好处,并将对象识别作为辅助任务来帮助行动识别。我们介绍了HVU的两个具有挑战性的场景不变的测试分裂,其中对模型进行了对训练中未遇到的动作场合共发生的评估。我们表明,我们的方法将准确性提高了约3%,并鼓励模型参与动作功能,而不是相关的偏见场景功能。
translated by 谷歌翻译
我们介绍了SLCN出生预测时胎龄(临床神经影像学表面学习)挑战的方法。我们的方法基于一种多视图形状分析技术,该技术从不同的角度捕获3D对象的2D渲染。我们在球体表面上呈现大脑特征,然后通过2D CNN分析2D图像,并针对回归任务进行注意力层。回归任务在天然空间上达到1.637 +-1.3的MAE,模板空间上的MAE为1.38 +-1.14。该项目的源代码可在我们的GitHub存储库中获得https://github.com/mathieuleclercq/slcn_challenge_unc_unc_unc
translated by 谷歌翻译
数码相机的加速使用引起了人们对隐私和安全性的日益关注,尤其是在诸如行动识别之类的应用程序中。在本文中,我们提出了一个优化框架,以沿着人类行动识别管道提供强大的视觉隐私保护。我们的框架参数化了相机镜头,以成功地降低视频的质量,以抑制隐私属性并防止对抗性攻击,同时保持相关功能以进行活动识别。我们通过广泛的模拟和硬件实验来验证我们的方法。
translated by 谷歌翻译
近年来,手性磁铁吸引了大量的研究兴趣,因为它们支持了各种拓扑缺陷,例如天空和bimerons,并通过多种技术允许其观察和操纵。它们在Spintronics领域也具有广泛的应用,尤其是在开发用于存储存储设备的新技术方面。但是,这些实验和理论研究中产生的大量数据需要足够的工具,其中机器学习至关重要。我们使用卷积神经网络(CNN)来识别手性磁铁热力学阶段中的相关特征,包括(抗)天际,bimeron,以及螺旋和铁磁状态。我们使用灵活的多标签分类框架,该框架可以正确分类,其中混合了不同的特征和相位。然后,我们训练CNN从晶格蒙特卡洛模拟的中间状态的快照中预测最终状态的特征。训练有素的模型允许在编队过程中可靠地识别不同阶段。因此,CNN可以显着加快3D材料的大规模模拟,这些模拟迄今为止一直是定量研究的瓶颈。此外,这种方法可以应用于手性磁体的现实世界图像中混合状态和新兴特征的识别。
translated by 谷歌翻译
本文对最近的ChildCI框架中提出的不同测试进行了全面分析,证明了其潜力可以更好地了解儿童的神经运动和随时间的认知发展,以及它们在其他研究领域的可能应用,例如电子学习。特别是,我们提出了一组与儿童与移动设备互动的运动和认知方面有关的100多个全球特征,其中一些是根据文献收集和改编的。此外,我们分析了拟议特征集的鲁棒性和判别能力,包括基于运动和认知行为的儿童年龄组检测任务的实验结果。在这项研究中考虑了两种不同的方案:i)单检验场景,ii)多测试场景。使用公开可用的childcidb_v1数据库(18个月至8岁的儿童超过400名儿童)实现了超过93%的精度,这证明了儿童年龄与与移动设备的互动方式之间的高度相关性。
translated by 谷歌翻译